Reconnaissance et extraction de documents. Une application industrielle à la détection de documents semi-structurés
نویسندگان
چکیده
This article deals with the problem of recognition of semi-structured documents image. The aim is to detect a document and to extract the region of interest containing it. Initially, an exemple of document is given by the user and a set of interest points are extracted from this query image. In a second step, a set of interest points is extracted from each image to analyse and is matched with the set of the query image. This matching is used to calculate the geometric transformation (translation, rotation, zoom) allowing the registration between the query image and the analysed image. Two main proposals have been made to make this technique usable for documents image matching : the selection of interest points and the adaptation of RANSAC. MOTS-CLÉS : comparaison d’images de documents, points d’intérêt, FLANN, SURF, RANSAC.
منابع مشابه
Restructuration automatique de documents dans les corpus semi-structurés hétérogènes
Résumé. L’interrogation de grandes bases de documents semi-structurés (type XML) est un problème ouvert important. En effet, pour interroger un document dont le schéma est nouveau, un système doit pouvoir soit adapter la requête posée au document, soit adapter le document pour pouvoir lui appliquer la requête. Nous nous positionnons ici dans le cadre de la restructuration de documents qui consi...
متن کاملFusion des connaissances en analyse de documents - Exemples sur des documents d'archives
RÉSUMÉ. La reconnaissance de collections de documents structurés numérisés et notamment de documents d’archives est difficile non seulement par la complexité de l’organisation des documents, mais aussi par la dégradation des documents (tâches, déchirures, encre traversant le papier, courbures produites à la numérisation. . . ). Afin d’améliorer la qualité de la reconnaissance tout en gérant le ...
متن کاملExtraction d'entités dans des collections évolutives
Résumé. Nous nous intéressons à l’extraction d’entités nommées avec comme but d’exploiter un ensemble de rapports pour en extraire une liste de partenaires. À partir d’une liste initiale, nous utilisons un premier ensemble de documents pour identifier des schémas de phrase qui sont ensuite validés par apprentissage supervisé sur des documents annotés pour en mesurer l’efficacité avant d’être ut...
متن کاملModèle d'indexation de documents peu symboliques dans des documents structurés: L'exemple du graphique dans un corpus de documents techniques
RÉSUMÉ. Cet article s’intéresse à l’indexation des données ayant une sémantique pauvre dans des documents structurés. Le but est d’exploiter le contenu des données symboliques avoisinantes afin d’en extraire les fragments adéquats pour compléter l’indexation de la donnée non symbolique. Cette approche a été abordée dans le cadre concret d’une application dans un contexte professionnel : indexer...
متن کاملRecherche de documents similaires sur le web par segmentations hiérarchiques et extraction de mots-clés
Résumé. La recherche de documents similaires est un processus qui consiste à trouver les documents présentant des similitudes, comme la copie ou la reformulation, sur des bases documentaires ou sur internet. Elle est utilisée notamment pour protéger la propriété intellectuelle de productions issues de l’enseignement, de la recherche ou de l’industrie. Dans cet article, nous définissons une appr...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Document Numérique
دوره 16 شماره
صفحات -
تاریخ انتشار 2013